学习不平衡是数据挖掘的基本挑战,在每个课程中,培训样本的比例不成比例。过度采样是通过为少数族裔生成合成样本来解决不平衡学习的有效技术。尽管已经提出了许多过采样算法,但它们在很大程度上依赖启发式方法,这可能是最佳选择的,因为我们可能需要针对不同数据集和基本分类器的不同采样策略,并且无法直接优化性能指标。在此激励的情况下,我们研究了开发一种基于学习的过采样算法以优化分类性能,这是一项艰巨的任务,因为庞大和等级的决策空间。在高水平上,我们需要确定要生成多少合成样品。在低级别,我们需要确定合成样品的位置,这取决于高级决策,因为样品的最佳位置在不同数量的样品中可能有所不同。为了应对挑战,我们提出了一种自动采样算法,可以共同优化不同级别的决策。由Smote〜 \ cite {Chawla2002smote}的成功的动机及其扩展,我们将生成过程作为Markov决策过程(MDP),由三个级别的策略组成,以在Smote搜索空间内生成合成样本。然后,我们利用深层的层次加强学习来优化验证数据的性能指标。在六个现实世界数据集上进行的广泛实验表明,自动变量极大地超过了最新的重新采样算法。该代码在https://github.com/daochenzha/autosmote上
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
来自LIDAR或相机传感器的3D对象检测任务对于自动驾驶至关重要。先锋尝试多模式融合的尝试补充了稀疏的激光雷达点云,其中包括图像的丰富语义纹理信息,以额外的网络设计和开销为代价。在这项工作中,我们提出了一个名为SPNET的新型语义传递框架,以通过丰富的上下文绘画的指导来提高现有基于激光雷达的3D检测模型的性能,在推理过程中没有额外的计算成本。我们的关键设计是首先通过训练语义绘制的教师模型来利用地面真实标签中潜在的指导性语义知识,然后引导纯LIDAR网络通过不同的粒度传播模块来学习语义绘制的表示:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类:类别:类别:类别:类别:类别:类别:类别: - 通过,像素的传递和实例传递。实验结果表明,所提出的SPNET可以与大多数现有的3D检测框架无缝合作,其中AP增益为1〜5%,甚至在KITTI测试基准上实现了新的最新3D检测性能。代码可在以下网址获得:https://github.com/jb892/sp​​net。
translated by 谷歌翻译
The click-through rate (CTR) prediction task is to predict whether a user will click on the recommended item. As mind-boggling amounts of data are produced online daily, accelerating CTR prediction model training is critical to ensuring an up-to-date model and reducing the training cost. One approach to increase the training speed is to apply large batch training. However, as shown in computer vision and natural language processing tasks, training with a large batch easily suffers from the loss of accuracy. Our experiments show that previous scaling rules fail in the training of CTR prediction neural networks. To tackle this problem, we first theoretically show that different frequencies of ids make it challenging to scale hyperparameters when scaling the batch size. To stabilize the training process in a large batch size setting, we develop the adaptive Column-wise Clipping (CowClip). It enables an easy and effective scaling rule for the embeddings, which keeps the learning rate unchanged and scales the L2 loss. We conduct extensive experiments with four CTR prediction networks on two real-world datasets and successfully scaled 128 times the original batch size without accuracy loss. In particular, for CTR prediction model DeepFM training on the Criteo dataset, our optimization framework enlarges the batch size from 1K to 128K with over 0.1% AUC improvement and reduces training time from 12 hours to 10 minutes on a single V100 GPU. Our code locates at https://github.com/bytedance/LargeBatchCTR.
translated by 谷歌翻译
Bundle建议旨在向用户推荐整个项目。然而,他们通常忽略了用户对采用项目的意图的多样性,并且无法解散用户在表示中的意图。在捆绑建议的实际情况下,用户的意图可以自然分布在该用户的不同捆绑中(全局视图),而捆绑包可能包含用户的多个意图(本地视图)。每个视图都有其意图解开的优势:1)从全球视图中,涉及更多项目来呈现每个意图,这可以更清楚地证明用户在每个意图下的喜好。 2)从本地视图中,它可以揭示每个意图下的项目之间的关联,因为同一捆绑包中的项目彼此高度相关。为此,我们提出了一个名为Multi-View Intentangle图形网络(MIDGN)的新型模型,该模型能够精确,全面地捕获用户意图的多样性和项目的关联,并在更精细的粒度上。具体而言,MIDGN分别从两个不同的角度解开了用户的意图:1)在全球级别,中型中MIDGN将用户的意图与捆绑关系相结合; 2)在本地级别,MIDGN将用户的意图与每个捆绑包中的项目结合在一起。同时,我们比较用户的意图在对比度学习框架下从不同观点中解散,以提高学习意图。在两个基准数据集上进行的广泛实验表明,中期的表现分别超过10.7%和26.8%。
translated by 谷歌翻译
在时空邻域中利用类似和更清晰的场景补丁对于视频去纹理至关重要。然而,基于CNN的方法显示了捕获远程依赖性和建模非本地自相相似性的限制。在本文中,我们提出了一种新颖的框架,流引导稀疏变压器(FGST),用于视频去掩模。在FGST中,我们定制自我关注模块,流动引导的基于稀疏窗口的多头自我关注(FGSW-MSA)。对于模糊参考帧上的每个$查询$元素,FGSW-MSA享有估计的光流向全局样本的指导,其空间稀疏但与相邻帧中相同的场景补丁对应的高度相关$键$元素。此外,我们介绍了一种反复嵌入(RE)机制,以从过去的框架转移信息并加强远程时间依赖性。综合实验表明,我们提出的FGST优于DVD和GoPro数据集的最先进的(SOTA)方法,甚至在真实视频去纹理中产生更多视觉上令人愉悦的结果。代码和型号将发布给公众。
translated by 谷歌翻译
低成本单眼的3D对象检测在自主驾驶中起着基本作用,而其精度仍然远非令人满意。在本文中,我们挖掘了3D对象检测任务,并将其重构为对象本地化和外观感知的子任务,这有​​利于整个任务的互惠信息的深度挖掘。我们介绍了一个名为DFR-Net的动态特征反射网络,其中包含两种新的独立模块:(i)首先将任务特征分开的外观定位特征反射模块(ALFR),然后自相互反映互核特征; (ii)通过自学习方式自适应地重建各个子任务的培训过程的动态内部交易模块(DIT)。关于挑战基蒂数据集的广泛实验证明了DFR网的有效性和泛化。我们在基蒂测试集中的所有单眼3D对象探测器中排名第一(直到2021年3月16日)。所提出的方法在许多尖端的3D检测框架中也容易在较忽略的成本下以忽略的成本来播放。该代码将公开可用。
translated by 谷歌翻译
由于LIDAR传感器捕获的精确深度信息缺乏准确的深度信息,单眼3D对象检测是一个关键而挑战的自主驾驶任务。在本文中,我们提出了一种立体引导的单目3D对象检测网络,称为SGM3D,其利用立体图像提取的鲁棒3D特征来增强从单眼图像中学到的特征。我们创新地研究了多粒度域适配模块(MG-DA)以利用网络的能力,以便仅基于单手套提示产生立体模拟功能。利用粗均衡特征级以及精细锚级域适配,以引导单眼分支。我们介绍了一个基于IOO匹配的对齐模块(iou-ma),用于立体声和单眼域之间的对象级域适应,以减轻先前阶段中的不匹配。我们对最具挑战性的基蒂和Lyft数据集进行了广泛的实验,并实现了新的最先进的性能。此外,我们的方法可以集成到许多其他单眼的方法中以提高性能而不引入任何额外的计算成本。
translated by 谷歌翻译
在本文中,我们提出了FXAM(快速可解释的添加剂模型),统一和快速可解释模型的预测分析。 FXAM将GAM的(广义添加剂模型)扩展到具有统一添加剂模型的模型,用于数值,分类和时间特征。 FXAM进行一种新颖的培训程序,称为三级迭代(TSI)。三个阶段分别对应于学习数值,分类和时间特征。通过固定其他阶段的参数,每个阶段都学习本地最佳。我们设计联合学习过度学习,占时间特征的部分学习,以实现高精度和培训效率。我们证明了TSI保证融合到全球最优。我们进一步提出了一套优化技术来加速FXAM的培训算法,以满足交互式分析的需求。评估验证FXAM在训练速度和建模分类和时间特征方面显着优于现有的游戏。
translated by 谷歌翻译
动作识别是通过广泛应用程序进行视频理解的重要任务。但是,开发有效的动作识别解决方案通常需要进行广泛的工程工作,以构建和测试模块及其超参数的不同组合。在此演示中,我们提出了Autovideo,这是一种用于自动视频动作识别的Python系统。Autovideo的特征是1)标准管道语言之后的高度模块化和可扩展的基础架构,2)管道构造的原始列表,3)数据驱动的调谐器来保存管道调整的努力,4)易于使用图形用户界面(GUI)。Autovideo在MIT许可证上发行,网址为https://github.com/datamllab/autovideo
translated by 谷歌翻译